LARA - Long Context LLMs VS RAG

요약

LARA를 만든 원칙

  1. Context Length를 모델의 최대 인풋 길이에 맞게 최대한 길게 넣어줘야 한다.
    1. Infinte-bench라는게 있었는데, 평균 길이가 128k를 넘어가서 내용 절반씩 잘린채로 들어갔다.
      우리가 잘 잘라서 넣어보니깐 Qwen-2.5-7B가 안자르고 넣은 gpt-4o를 이기더라.
  2. Context는 원래부터 긴 문서여야 한다.
    1. Qasper는 고작 평균 4912 토큰이다.
  3. LLM의 내부 지식으로는 답변할 수 없어야 한다. (Data Leakage)
    1. NarrativeQA는 평균 84,770토큰이지만 Gemini 1.5 Pro는 거의 100% 정확도를 달성한다.
  4. 정해진 답이 있어야 한다 (정확한 평가를 위하여)
    1. 기존에는 생성 태스크에 전혀 적합하지 않은 F1이나 EM을 쓴다.
  5. real-world LLM 시나리오에서 나올법한 질문이어야 한다.

LARA를 만든 법

소설, 논문, 금융 관련 보고서 (분기 보고서, 연간 보고서 등)을 모았다.
Data Leakage를 막기 위해서 entity replacement (고유 명사 등을 대체)를 수행했다.

먼저 seed question과 answer를 만든 후에 이것을 few-shot으로 해서 gpt-4o에게 새로운 QA 페어를 생성하도록 했다. 랜덤으로 뽑았을 때 퀄리티가 괜찮을 때까지 프롬프트를 깎았다.

질문을 만들때는 10k 정도로 잘라서 gpt-4o에 넣었다. 특히 comparison 만들때는 더 작게 만들어서 랜덤으로 두 개를 골랐다.

LARA의 4가지 태스크

1. Location Task

Needle in a haystack과 비슷한데, 뜻만 같다면 paraphrasing이 허용된다.
ex) 경희대 교육과정 전체를 주며, '컴퓨터공학과 단일전공 졸업학점은?'

2. Reasoning Task

논리적인 사고나 계산을 요구하는 태스크.

3. Comparison Task

긴 context 내의 여러 파트에서 정보를 수집해서, 각각의 정보를 비교한 후 최종 결론에 다다를 수 있는가?

4. Hallucination Detection

Context 내에 없는 정보에 관해서는 답변을 거부하는 능력.

메트릭

gpt-4o가 채점했다. LARA에는 정해진 답 뿐이기 때문에 채점이 용이하다.
그리고 gpt-4o가 잘했는지 사람이 몇 개 채점해서 correlation을 구해봤다.

실험

베이스라인

Pasted image 20250805173105.png
Avg GAP은 LC - RAG입니다. (음수면 RAG가 더 좋았다)

결과 해석

Pasted image 20250805174200.png

Pasted image 20250805174411.png

결론